查看原文
其他

聚焦︱结合网络评论数据与道路约束的城市兴趣域识别方法研究 ——以广州市越秀区为例

The following article is from 地理信息世界GeomaticsWorld Author 地理信息世界

导读

城市兴趣域能够反映居民在城市中的活动规律与意愿,而大数据技术的发展及应用,使得将带有地理位置信息的评论数据应用于城市兴趣域识别和分析成为可能。这可为城市用地功能的识别、分析和规划提供参考依据。本文以广州市越秀区为例,提出一种结合道路约束与网络评论数据的城市兴趣域识别方法,精细地刻画广州市的空间结构,实时地捕捉人类活动影响下的城市兴趣域范围。


城市兴趣域(Areas of Interest,AOI)是指城市范围内居民活动较为活跃的区域,其通常位于旅游景点、商业中心和居民地等人口流动较大的地方。随着城市化进程的不断推进,城市内部空间结构也随之发生变化。然而,传统城市空间规划过于强调物质空间规划,忽视了人文环境规划,即缺少对城市居民的活动与意愿的研究,从而严重影响了城市规划的时效性与灵活性。而城市兴趣域能够很好地反映居民在城市中的活动规律与意愿,它能够能为城市空间合理规划提供重要的参考依据。


传统的城市兴趣域识别主要采用遥感影像地物识别手段,从遥感影像中提取反映居民活动的城市用地类型信息。如Hsu等利用夜间灯光遥感数据,对城市中的建筑物分布进行了识别分析;Wu等利用遥感影像中的移动激光扫描点云数据,识别了城市中的道路分布。然而,遥感影像识别方法存在生产周期长、耗时耗力等问题。同时,遥感影像仅能提取城市的地物分布等静态信息,无法识别城市居民活动的信息。因此,需要应用一种实时更新且能够反映居民活动信息的新数据进行城市兴趣域的识别。


近年来,随着大数据技术的发展及应用,出现了大量诸如美团、大众点评、高德地图等网络平台。这些平台产生的评论数据更新实时,也包含位置信息,能够反映城市兴趣域的空间分布;同时,数据中的文本内容在一定程度上也能够反映居民的活动。然而,现有的研究往往依据平面空间格局,即将城市环境视为均质、各向同性的欧氏空间,缺乏考虑城市结构的空间度量,从而很难准确、客观地划分城市兴趣域的空间范围。


事实上,人们多数行为活动往往受限于二维欧氏空间内的网络交通,即网络空间,如外卖点、商场、银行等多分布于道路两旁。因此城市兴趣域的识别不应在理想化的均质化城市空间中进行,要充分考虑道路分布对兴趣域空间范围的影响。鉴于此,本文以广州市越秀区为基本研究区,提出一种结合道路约束与网络评论数据的城市兴趣域识别方法。首先,对研究区域的道路数据进行简化处理;继而,设计了基于Epanechnikov核函数的网络核密度估计算法,实现城市兴趣域的空间范围划分;最后,依据网络评论数据的评论次数与评论文本,量化兴趣域的吸引程度,并判别其功能类型。


一、顾及道路约束的城市兴趣域识别方法


1.1 研究思路


本文的总体研究思路如图1所示。首先,获取研究区域的网络评论数据中的位置信息、评论次数与评论文本,还需要获取相应区域的道路数据,并对道路数据进行简化;继而,结合道路数据与网络评论数据中的位置信息,应用网络核密度估计方法,划分城市兴趣域的空间范围;在此基础上,依据网络评论数据的评论次数与评论文本信息,实现城市兴趣域的识别。


图1 结合道路约束与网络评论数据的城市兴趣域识别方法思路图


1.2 顾及道路约束的城市兴趣域空间范围划分方法


传统的城市兴趣域空间范围划分方法多采用基于欧氏距离核密度估计,将城市视为均质的、各向同性的平面空间,这与人类活动相关的地理现象通常沿道路分布的情况并不相符。因而本文考虑了道路的约束条件,应用网络核密度算法,利用网络评论数据的位置信息与道路的分布情况,对城市兴趣域的空间分布情况进行估计。


传统的核密度估计方法的基本思想是认为某一点s处的密度值大小应该与该点一定范围内所包含的样本点数量有关,如果点s附近所包含的样本点个数多,则密度值也就相应比较大,反之比较小。其密度值f(s)表示如下:



式中, f(s)是城市中某一地理位置s处的密度值;h是路径距离衰减阈值,即带宽;n是与位置s的路径距离小于或等于h的点数量;k为核密度估计中的核函数;s-si为各点数据与核心要素si的距离。在此基础上,应用Epanechnikov核函数实现道路约束:



此外,网络核密度估计使用的搜索距离不是简单平面下的欧式距离,而是基于最短路径的网络距离,所以,带宽h的确定至关重要,在很大程度上会影响到分析的结果。设置较大的带宽会得到较光滑的聚类边界和较大面积的聚类结果,并且使得道路网络对聚类结果的约束影响变小;反之设置较小的带宽会使聚类边界产生较大的起伏变化,聚类结果受道路网络约束影响变大。因此,应通过对比实验选取最合适的带宽。


1.3 基于网络评论数据的城市兴趣域识别方法


本文在划分空间范围的基础上,利用网络评论数据的评论次数与评论文本,量化兴趣域对城市居民的吸引程度,判断兴趣域的功能等类别。针对兴趣域对城市居民的吸引程度,评论数据的次数侧面反映了该区域人类活动的强弱,从某种意义上能体现人们对该区域的关注度。用户通过大众点评等平台发布对某一地理位置的点评,这些点评信息反映了该区域的活力。通过以下公式,可以获得兴趣域对居民的吸引程度信息:



式中,Attractivenessi为兴趣域内第i个栅格单元对居民的吸引程度,

为栅格单元内包含评论的次数,Ai为该栅格的面积。针对兴趣域的功能判别,利用网络评论数据中的评论文本,推测城市居民在兴趣域中的活动类型。如评论文本中经常出现的如“这家店真难走,堵车堵了一个小时”“下地铁一转弯就到了,真方便”等,通过分析此类文本可以获得该区域大体的交通状况。此外,用户的好恶情感也能够反映兴趣域的不同功能,如“这家店真难吃下次不来了”“这里环境真好下次还来这里吃”等评论文本上,反映了兴趣域中与餐饮相关的商业服务功能。


二、实验与分析


2.1 研究区域与数据


本文选取广州市越秀区为研究区域。越秀区作为广州行政、商贸、金融、文化中心,人口密集,商业繁荣,既有广州最繁华商贸中心和古城文化旅游区中山五路,也有北京路、海印地区、英雄广场、一德路等知名的商贸区,城市功能丰富多样。试验数据采用由大众点评、美团网、高德地图和马蜂窝平台提供的200 612条网络评论数据,并提取其中的经度、纬度信息与评论文本,作为城市兴趣域识别的依据。此外,在OpenStreetMap数据共享平台上获取试验所需的城市道路数据共计3 756条。具体的研究区域与数据分布情况如图2所示。


2.2 城市道路数据简化


道路作为连通城市中各个功能区域的媒介,类型多样,存在诸如绿化道路等支路,造成缺少实际意义的区域划分。因此,需要在不改变道路拓扑关系的基础上,对城市道路进行简化。首先,通过选择属性为Primary、Secondary、Tertiary和Trunk的道路数据,提取越秀区的城市主要道路。继而,对道路数据进行简化处理,具体采用文献[15]提出的研究方法,利用约束Delaunay算法形成道路约束三角形网,并提取道路中心线。为了合并平行或交错的道路分支,采用建立缓冲区的方式,进行道路数据的扩张和抽稀。部分道路简化前后的示意图如图3a、图3b所示。


图2 研究区域与数据示意图


a 部分道路简化前示意图b 部分道路简化后示意图图3 部分道路简化前后示意图


2.3 顾及道路约束的城市兴趣域空间范围划分


应用基于网络核密度估计的道路约束方法,对城市兴趣域的分布范围进行划分。由于过大或过小的空间尺度都会影响城市兴趣域识别的精度,因此需要选择合适的Epanechnikov核函数搜索半径,以确定城市兴趣域的空间分布。如图4a~4c所示,以越秀区的农林下路区域为例,分别构建10 m、20 m、50 m的核密度搜索半径。通过对比可发现,图4a中的城市兴趣域范围过小,仅仅提取了道路周边的部分区域,削弱了网络评论数据对区域划分的影响;图4c与之相反,城市兴趣域内虽然包含了更多的网络评论数据,却难以刻画道路结构对城市兴趣域的影响;而图4b兼顾了网络评论数据和道路的空间分布,由此可知20 m的搜索半径下可以构建合理的道路约束,实现城市兴趣域空间范围的划分。


图4 不同搜索半径h下的道路约束


为了验证本文所提出的基于网络核密度的道路约束方法,以越秀区大佛古寺附近区域为例,在20 m搜索半径下,分别应用传统的与顾及道路约束的方法,划分城市兴趣域的空间范围,如图5所示。图5a为缺少道路约束的城市兴趣域划分结果,该区域覆盖了全部评论数据所在的范围,忽略了城市空间结构对兴趣域的影响。图5b为顾及道路约束的城市兴趣域划分结果,不同于传统的兴趣域识别结果,该方法可以将兴趣域的空间范围约束至道路弧度范围,能够较好地反映城市兴趣域在大尺度下的细节分布特征,顾及城市道路的实际分布情况。


a 缺少道路约束的城市兴趣域划分结果

b 顾及道路约束的城市兴趣域空间范围划分结果

图5 越秀区北京路区域的城市兴趣域划分结


2.4 基于网络评论数据的城市兴趣域识别


网络评论数据中评论次数与文本内容反映了兴趣域对城市居民的吸引程度和城市居民的活动类型。本文选取了广州市越秀区的4个城市兴趣域,通过分析划分区域内的居民活动强度与活动类型,实现城市兴趣域的识别,如图6a~6h所示。


a 宜安广场兴趣域b 宜安广场评论文本
c 大佛古寺兴趣域d 大佛古寺评论文本
e 农林下路兴趣域f 农林下路评论文本
g 中华国际中心兴趣域h 中华国际中心评论文本图6 兴趣域分布及评论文本


图6a中的兴趣域位于宜安广场商业街,通过统计区域内的网络评论次数,分析该区域不同地段对城市居民的吸引程度,在这一区域内,吸引程度的空间分布总体上呈现东高西低的特点。其中,好世界公寓这一区域吸引力最强,其次为中环广场南区。此外,由图6b可知,该兴趣域内的居民活动类型多与“烧烤”“火锅”“小龙虾”“海鲜”等和饮食相关。


图6c中的兴趣域位于大佛古寺周边区域,吸引程度整体上呈现南高北低的特点。其中,北京路步行街由于多商业店铺分布,人流较为集中,故对城市居民的吸引力较高。此外,银座广场、广东省职业训练场等区域也有较强的吸引力。由图6d可知,该区域内的居民活动类型多与古寺的旅游、商业购物相关。


图6e中的兴趣域位于农林下路附近,该区域对城市居民的吸引力呈现中部区域高、周边区域低的特点,并集中在地铁环线附近,体现了地铁对城市经济的带动作用。此外,该区域内的居民活动类型多与居住、交通、购物相关,如图6f所示。


图6g中的兴趣域位于中华国际中心,该区域对居民的吸引力从中华国际中心到周边区域逐渐降低,居民的活动类型多与商业娱乐、购物相关,如图6h所示。


三、结语


近年来,随着大数据技术的发展及应用,出现了大量诸如大众点评、美团网、高德地图、马蜂窝等媒体平台的评论数据。这些数据实时更新,包含位置信息,能够反映城市兴趣域的空间分布;同时,评论数据的文本内容在一定程度上也能够反映居民的活动。因此,将带有地理位置信息的评论数据应用于城市兴趣域识别和分析中。


本文使用大众点评、美团网、高德地图、马蜂窝等各大平台的评论数据作为实验数据,利用Epanechnikov核函数的网络核密度估计算法,划分道路约束下的城市兴趣域空间范围,并基于点评数据对典型的城市兴趣域的兴趣域进行识别。相较于传统的兴趣域识别方法,本文提出的方法能够有效地利用网络上的评论数据,精细地刻画城市空间结构,实时地捕捉人类活动影响下的城市兴趣域范围,对城市用地功能的识别、分析和规划具有重要意义。此外,需要进一步研究不同类型的网络评论数据对城市兴趣域识别的影响,以及不同交通环境影响下城市兴趣域的空间分布差异。

责任编辑:林冬娜、邓小云

文章来源:地理信息世界GeomaticsWorld


点击查看联盟会员单位详


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存